智能论文笔记

Towards Scalable Multi-domain Conversational Agents: The Schema-Guided Dialogue Dataset

Abhinav Rastogi , Xiaoxue Zang , Srinivas Sunkara , Raghav Gupta , Pranav Khaitan

分类：

2019-09-12

Virtual assistants such as Google Assistant, Alexa and Siri provide a conversational interface to a large number of services and APIs spanning multiple domains. Such systems need to support an ever-increasing number of services with possibly overlapping functionality. Furthermore, some of these services have little to no training data available. Existing public datasets for task-oriented dialogue do not sufficiently capture these challenges since they cover few domains and assume a single static ontology per domain. In this work, we introduce the the Schema-Guided Dialogue (SGD) dataset, containing over 16k multi-domain conversations spanning 16 domains. Our dataset exceeds the existing task-oriented dialogue corpora in scale, while also highlighting the challenges associated with building large-scale virtual assistants. It provides a challenging testbed for a number of tasks including language understanding, slot filling, dialogue state tracking and response generation. Along the same lines, we present a schema-guided paradigm for task-oriented dialogue, in which predictions are made over a dynamic set of intents and slots, provided as input, using their natural language descriptions. This allows a single dialogue system to easily support a large number of services and facilitates simple integration of new services without requiring additional training data. Building upon the proposed paradigm, we release a model for dialogue state tracking capable of zero-shot generalization to new APIs, while remaining competitive in the regular setting.

translated by 谷歌翻译

From Competition to Collaboration: Making Toy Datasets on Kaggle Clinically Useful for Chest X-Ray Diagnosis Using Federated Learning

Pranav Kulkarni , Adway Kanhere , Paul H. Yi , Vishwa S. Parekh

分类：计算机视觉 | 机器学习

2022-11-11

Chest X-ray (CXR) datasets hosted on Kaggle, though useful from a data science competition standpoint, have limited utility in clinical use because of their narrow focus on diagnosing one specific disease. In real-world clinical use, multiple diseases need to be considered since they can co-exist in the same patient. In this work, we demonstrate how federated learning (FL) can be used to make these toy CXR datasets from Kaggle clinically useful. Specifically, we train a single FL classification model (`global`) using two separate CXR datasets -- one annotated for presence of pneumonia and the other for presence of pneumothorax (two common and life-threatening conditions) -- capable of diagnosing both. We compare the performance of the global FL model with models trained separately on both datasets (`baseline`) for two different model architectures. On a standard, naive 3-layer CNN architecture, the global FL model achieved AUROC of 0.84 and 0.81 for pneumonia and pneumothorax, respectively, compared to 0.85 and 0.82, respectively, for both baseline models (p>0.05). Similarly, on a pretrained DenseNet121 architecture, the global FL model achieved AUROC of 0.88 and 0.91 for pneumonia and pneumothorax, respectively, compared to 0.89 and 0.91, respectively, for both baseline models (p>0.05). Our results suggest that FL can be used to create global `meta` models to make toy datasets from Kaggle clinically useful, a step forward towards bridging the gap from bench to bedside.

translated by 谷歌翻译

A general-purpose material property data extraction pipeline from large polymer corpora using Natural Language Processing

Pranav Shetty , Arunkumar Chitteth Rajan , Christopher Kuenneth , Sonkakshi Gupta , Lakshmi Prerana Panchumarti , Lauren Holm , Chao Zhang , Rampi Ramprasad

分类：自然语言处理

2022-09-27

不断增加的材料科学文章使得很难从已发表的文献中推断化学结构 - 培训关系。我们使用自然语言处理（NLP）方法从聚合物文献的摘要中自动提取材料属性数据。作为我们管道的组成部分，我们使用240万材料科学摘要培训了一种语言模型的材料，该材料模型在用作文本编码器时，在五分之三命名实体识别数据集中的其他基线模型都优于其他基线模型。使用此管道，我们在60小时内从约130,000个摘要中获得了约300,000个物质记录。分析了提取的数据，分析了各种应用，例如燃料电池，超级电容器和聚合物太阳能电池，以恢复非平凡的见解。通过我们的管道提取的数据可通过https://polymerscholar.org的Web平台提供，该数据可方便地定位摘要中记录的材料属性数据。这项工作证明了自动管道的可行性，该管道从已发布的文献开始，并以一组完整的提取物质属性信息结束。

translated by 谷歌翻译

Just-In-Time Learning for Operational Risk Assessment in Power Grids

Oliver Stover , Pranav Karve , Sankaran Mahadevan , Wenbo Chen , Haoruo Zhao , Mathieu Tanneau , Pascal Van Hentenryck

分类：机器学习

2022-09-26

在具有可再生生成的大量份额的网格中，由于负载和发电的波动性增加，运营商将需要其他工具来评估运营风险。正向不确定性传播问题的计算要求必须解决众多安全受限的经济调度（SCED）优化，是这种实时风险评估的主要障碍。本文提出了一个即时风险评估学习框架（Jitralf）作为替代方案。 Jitralf训练风险代理，每天每小时一个，使用机器学习（ML）来预测估计风险所需的数量，而无需明确解决SCED问题。这大大减轻了正向不确定性传播的计算负担，并允许快速，实时的风险估计。本文还提出了一种新颖的，不对称的损失函数，并表明使用不对称损失训练的模型的性能优于使用对称损耗函数的模型。在法国传输系统上评估了Jitralf，以评估运营储量不足的风险，减轻负载的风险和预期的运营成本。

translated by 谷歌翻译

Computer vision based vehicle tracking as a complementary and scalable approach to RFID tagging

Pranav Kant Gaur , Abhilash Bhardwaj , Pritam Shete , Mohini Laghate , Dinesh M Sarode

分类：计算机视觉

2022-09-13

传入/传出车辆的记录是根本原因分析的关键信息，以打击各种敏感组织中的安全违规事件。 RFID标记会阻碍物流和技术方面的车辆跟踪解决方案的可扩展性。例如，要求标记为RFID的每个传入车辆（部门或私人）是严重的限制，并且与RFID一起检测异常车辆运动的视频分析是不平凡的。我们利用公开可用的计算机视觉算法实现，使用有限状态机形式主义开发可解释的车辆跟踪算法。国家机器将用于状态转换的级联对象检测和光学特征识别（OCR）模型中的输入。我们从系统部署站点中评估了75个285辆车的视频片段中提出的方法。我们观察到检测率受速度和车辆类型的影响最大。当车辆运动仅限于在检查点类似于RFID标记的检查点时，将达到最高的检测率。我们进一步分析了700个对Live DATA的车辆跟踪预测，并确定大多数车辆数量预测误差是由于无法辨认的文本，图像布鲁尔，文本遮挡，文本遮挡和vecab外字母引起的。为了进行系统部署和性能增强，我们希望我们正在进行的系统监控能够提供证据，以在安全检查点上建立更高的车辆通知SOP，并将已部署的计算机视觉模型和状态模型的微调驱动为建立拟议的方法作为RFID标记的有希望的替代方法。

translated by 谷歌翻译

End-to-end deep learning for directly estimating grape yield from ground-based imagery

Alexander G. Olenskyj , Brent S. Sams , Zhenghao Fei , Vishal Singh , Pranav V. Raja , Gail M. Bornhorst , J. Mason Earles

分类：计算机视觉

2022-08-04

产量估计是葡萄园管理中的强大工具，因为它允许种植者微调实践以优化产量和质量。但是，目前使用手动抽样进行估计，这是耗时和不精确的。这项研究表明，近端成像的应用与深度学习相结合，以进行葡萄园中的产量估计。使用车辆安装的传感套件进行连续数据收集，并使用商业收益率监控器在收获时结合了地面真实收益数据的收集，可以生成一个23,581个收益点和107,933张图像的大数据集。此外，这项研究是在机械管理的商业葡萄园中进行的，代表了一个充满挑战的图像分析环境，但在加利福尼亚中央山谷中的一组常见条件。测试了三个模型架构：对象检测，CNN回归和变压器模型。对象检测模型在手工标记的图像上进行了训练以定位葡萄束，并将束数量或像素区域求和以与葡萄产量相关。相反，回归模型端到端训练，以预测图像数据中的葡萄产量，而无需手动标记。结果表明，在代表性的保留数据集上，具有相当的绝对百分比误差为18％和18.5％的变压器和具有像素区域处理的对象检测模型。使用显着映射来证明CNN模型的注意力位于葡萄束的预测位置附近以及葡萄树冠的顶部。总体而言，该研究表明，近端成像和深度学习对于大规模预测葡萄群的适用性。此外，端到端建模方法能够与对象检测方法相当地执行，同时消除了手工标记的需求。

translated by 谷歌翻译

Using Multi-modal Data for Improving Generalizability and Explainability of Disease Classification in Radiology

Pranav Agnihotri , Sara Ketabi , Khashayar , Namdar , Farzad Khalvati

分类：计算机视觉 | 机器学习

2022-07-29

放射学诊断的传统数据集倾向于在放射学报告旁边提供放射学图像。但是，放射科医生进行的放射学读数是一个复杂的过程，在阅读过程中，放射科医生的眼睛固定等信息有可能成为可从中学习的宝贵数据源。但是，此类数据的收集既昂贵又耗时。这导致了一个问题，即此类数据是否值得投资收集。本文利用最近发表的Eye Gaze数据集对面对不同级别的输入功能的影响的影响和解释性（DL）分类的影响进行详尽的研究，即：放射学图像，放射学报告文本和放射学家眼睛凝视数据。我们发现，通过放射学报告自由文本和放射学图像的组合，可以实现X射线图像的最佳分类性能，而眼睛凝视数据没有提供性能的提升。尽管如此，与培训的模型相比，与从事分类和注意力图的模型相比，眼睛凝视数据将作为次级基础真理以及类标签以及类似于辅助图的模型产生更好的注意力图。

translated by 谷歌翻译

Unsupervised Learning under Latent Label Shift

Manley Roberts , Pranav Mani , Saurabh Garg , Zachary C. Lipton

分类：机器学习 | (统计)机器学习

2022-07-26

哪种结构可以使学习者能够从未标记的数据中发现类？传统方法取决于功能空间的相似性和对数据的英勇假设。在本文中，我们在潜在标签换档（LLS）下介绍了无监督的学习，我们可以从多个域中访问未标记的数据，以便标签边缘$ p_d（y）$可以跨域变化，但是类有条件的$ p（\ mathbf） {x} | y）$不。这项工作实例化了识别类别的新原则：将分组分组的元素。对于有限输入空间，我们在LLS和主题建模之间建立了同构：输入对应于单词，域，文档和标签与主题。解决连续数据时，我们证明，当每个标签的支持包含一个可分离区域时，类似于锚词，Oracle访问$ P（d | \ Mathbf {x}）$足以识别$ p_d（y）$和$ p_d（ y | \ mathbf {x}）$ for排列。因此，我们引入了一种实用算法，该算法利用域 - 歧义模型如下：（i）通过域歧视器$ p（d | \ mathbf {x}）推动示例；（ii）通过$ p（d | \ mathbf {x}）$ space中的聚类示例来离散数据；（iii）对离散数据执行非负矩阵分解；（iv）将回收的$ P（y | d）$与鉴别器输出$ p（d | \ mathbf {x}）$结合在一起计算$ p_d（y | x）\; \ forall d $。通过半合成实验，我们表明我们的算法可以利用域信息来改善无监督的分类方法。当功能空间相似性并不表示真实分组时，我们揭示了标准无监督分类方法的故障模式，并从经验上证明我们的方法可以更好地处理这种情况。我们的结果建立了分销转移与主题建模之间的密切联系，为将来的工作开辟了有希望的界限。

translated by 谷歌翻译

Toward Fairness in Speech Recognition: Discovery and mitigation of performance disparities

Pranav Dheram , Murugesan Ramakrishnan , Anirudh Raju , I-Fan Chen , Brian King , Katherine Powell , Melissa Saboowala , Karan Shetty , Andreas Stolcke

分类：自然语言处理

2022-07-22

至于其他形式的AI，最近已经对不同用户同伙的性能差异进行了研究。在语音识别方面实现公平性的一种方法是（1）确定遭受低标准表现的说话者队列，以及（2）采取针对发现同类的公平性缓解措施。在本文中，我们使用产品规模的AI助手语音识别系统的数据报告了发现和缓解性能差异的初步发现。我们将基于地理和人口统计学信息的队列发现与一种更可扩展的方法进行比较，该方法将使用扬声器嵌入技术分组没有人类标签的说话者。为了缓解公平性，我们发现对代表性不足的队列的过度采样，以及通过其他输入变量对扬声器队列的建模，从而减少了表现和底部性能队列之间的差距，而不会降低整体识别精度。

translated by 谷歌翻译

MobileCodec: Neural Inter-frame Video Compression on Mobile Devices

Hoang Le , Liang Zhang , Amir Said , Guillaume Sautiere , Yang Yang , Pranav Shrestha , Fei Yin , Reza Pourreza , Auke Wiggers

分类：计算机视觉

2022-07-18

由于深层网络的计算复杂性和功率约束的移动硬件的计算复杂性，因此在移动设备上实现神经视频编解码器的潜力是一项巨大的技术挑战。我们通过利用高通公司的技术和创新来证明可行性，从而弥合了从基于神经网络的编解码器模拟在壁式工作站运行的差距，再到由Snapdragon技术供电的移动设备上的实时操作。我们显示有史以来第一个在商用手机上运行的框架间神经视频解码器，实时解码高清视频，同时保持低比特率和高视觉质量。

translated by 谷歌翻译